arxiv：2410.15115v3 [cs.lg] 2024年11月27日__

arxiv：2410.15115v3 [cs.lg] 2024年11月27日

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

arxiv：2410.15115v3 [cs.lg] 2024年11月27日

¥ 1.0

热度

奖励模型越来越重要，对于改善LLMS的推理性能。现有的研究表明，训练有素的奖励模型可以通过搜索或最佳n票在推理时间上大大改善模型性能。但是，在RL训练时间期间奖励模型的潜力仍然很大程度上还不足。目前尚不清楚这些奖励模型是否可以为使用稀疏成功奖励的RL培训提供额外的培训信号，从而验证解决方案的正确性。在这项工作中，我们评估了RL培训的流行奖励模型，包括受结果监督的奖励模型（ORM）和程序监督的奖励模型（PRM），以及通过将这些学习的奖励与成功奖励相结合，培训了使用RL的LLM集合来解决数学问题。令人惊讶的是，即使这些学到的奖励模型具有强大的推理时间表演，它们也可能不会帮助甚至伤害RL训练，而与仅接受成功奖励的LLM相比，表现差。我们的分析表明，LLM可以通过重复正确但不必要的推理步骤从其中一些奖励模型获得高奖励，这导致了RL培训的严重奖励黑客问题。因此，我们介绍了两种新颖的奖励精致技术，包括剪裁和三角洲。关键思想是确保任何推理轨迹的累积奖励都受到上限，以使学习的奖励模型有效而无需被利用。我们在数学和GSM8K基准的一组1.5B和7B LLMS上使用多个奖励模型评估了我们的技术，其中剪切和Delta都始终稳定RL训练。最后，我们还证明，通过精心设计的奖励功能，无需任何其他监督调整的纯RL训练就可以进一步改善所有评估的LLM，包括数学和GSM8K基准的最先进的7B LLM QWEN2.5-MATH-7B-7B-7B-7B。

添加pdf代下载 VIP点击下载文件